Sementara kernel 1D memperlakukan data sebagai aliran linier, Kesadaran Tata Letak 2D menggeser paradigma menuju pemrosesan struktur yang teratur "ubin". Hardware GPU modern mengoptimalkan kinerja dengan mengelompokkan elemen menjadi grid 2D untuk memaksimalkan lokalitas spasial dan memanfaatkan inti tensor khusus.
1. Melampaui Operasi Per Elemen
Pada 1D, setiap thread menghitung skalar. Pada kernel 2D Triton, program beroperasi pada seluruh blok secara bersamaan. Ini memperumum penjumlahan vektor sederhana menjadi transformasi matriks kompleks seperti GEMM.
2. Lokalitas Spasial
Memahami bagaimana elemen tetangga (horizontal dan vertikal) diambil ke dalam cache adalah langkah penting dari kernel pendidikan menuju kernel siap produksi. Ini menjamin bahwa bahkan dengan memori yang ditranspos atau diperluas, kernel mengakses data tanpa menyia-nyiakan bandwidth.
3. Jalur Menuju Produksi
Kuasa atas tata letak 2D memungkinkan pembagian data di sepanjang Streaming Multiprocessor (SMs) dengan efisien. Sebagai contoh, Matrix Copy yang mengenali lebar/tinggi dapat memuat ubin 16×16 ke dalam memori cepat di chip, sesuai dengan "stride" fisik tensor.